极越打样，去激光雷达后高阶智驾怎么玩儿？

作者： NE时代
2024-03-28 16:47
350

3月25日，极越在北京举办了AI DAY 2024，同时迎来了极越01的第5次OTA。

此时，极越01正式上市还没有半年，可谓是月月更新。

当然，作为AI DAY，极越不仅发布了OTA V1.4.0新版软件，还阐述了其自动驾驶的逻辑和方法论，以及涉及自动驾驶、LD地图、人机交互领域的三项技术。

其中，在智能驾驶方面，百度Apollo自动驾驶视觉大模型VTA（Vision Takes All）的发布值得关注。

本文着重梳理VTA大模型为极越带来的能力提升，后续还会有此次AI DAY上，地图和智舱部分相关内容发布。

OCC占据网络能力持续迭代

极越方面称VTA大模型为基础大模型，并定义了其四大核心能力——动静态检测、时序跟踪、实时建图，以及场景理解等能力。在极越看来，这些能力的提升，进一步拉升了纯视觉高阶智驾的上限。

动静态检测方面，百度智能驾驶事业群组首席研发架构师、IDG技术委员会主席王亮表示，在极越OTA1.4.0阶段，OCC模型新增了超过1亿帧自动化、精标的数据，在视距上、识别的稳定性上，识别的范围和分辨率上都得到了显著的提升。

百度智能驾驶事业群组首席研发架构师、IDG技术委员会主席王亮

不同场景训练的模型可以提供行泊全场景的OCC能力服务。例如，狙击步枪模型，主打远视距，前向视距达到200米，分辨率为0.4米，最高的帧率可以达到30帧每秒；手枪模型，主打在复杂城市道路中远距离下博弈，前向视距能达到120米，整个分辨率格子是10厘米×10厘米×10厘米的一个立方体，最高帧率能达到20赫兹。

此外，还有一款称为匕首的occ占据网络，主打近距离的肉搏。比如在停车场景，车与车之间的距离，可能以厘米级计算的时候，研发人员可以调用这款模型来更好地处理交互。这款模型的前向视距达到30米，整个分辨率是5厘米，最高帧率10赫兹。

虽然是纯视觉，极越也希望将雷达三维能力转化到纯视觉的OCC模型占据网络上，从而获得全方位无盲区的视觉能力。因此，极越为每个OCC占据网络模型都配备了自己独特的导师—一款性能绝佳的激光雷达。例如狙击步枪模型，就是使用的激光雷达就是1550纳米的超长距激光雷达；在泊车场景近距离博弈场景使用的激光雷达，就是905纳米的补盲激光雷达，这样极越就在三维激光雷达增值数据的能力加持下，形成多场景行泊一体兼顾的模型群组。

时序跟踪能力明显提升

在王亮看来，时序跟踪大致有两个步骤，第一步是关联，通俗来讲，就是在这个世界里面不同时间阶段，这个障碍物下一秒会走到哪？这么多物体，谁跟谁是同一个物体。这个传统的方法比较简单，通过视觉识别物体身上的纹理，计算出纹理的相似度来识别。但是不可避免，有时会搞混，特别是在复杂场景人有遮挡的时候，就会跟不上。

第二步，根据跟踪再去计算这个障碍物的速度。采用Rule-based代表传统的方法，物体遮挡后很可能会跟丢；VTA网络采用的data-driven算法是通过数据驱动模型学习出来的，具备比较长的记忆能力，能够在消失之后，知道这还是之前见过的同一个物体，这是视觉能力的重大飞跃。

速度估计方面，传统的方法用距离除以时间得出速度，但是因为帧与帧之间只有1/10秒，分母太小，也就意味着如果在三维位置的估计上稍有不准，这个速度的值就会很跳变。

用传统方法算出来的障碍物速度，因为中间有遮挡等等原因，速度非常的不连续，决策规划达到一定速度，就很难做出一个正确的判断。但是通过端到端的机器学习，就可以持续输出一个相对稳定的速度估计，非常精准的一条速度估计曲线。

新增实时建图能力

此外，VTA网络新增了视觉的实时建图的能力。

极越的纯视觉的建图能力有几个大的特点，首先有非常丰富的道路元素感知能力，极越支持总共101类，建图场景需要识别的元素，基本覆盖了道路所有元素，例如鱼骨线，曲化道路，阶梯停止线，五岔路口等，都在识别范围内。

第二，非常精准的几何测距和建图的能力，结合之前在场景里面检测一些车道线的特征点，再通过后处理，把这些特征点组织起来拟合成曲线，用VTA网络直接去学习这个道路的结构，这个曲线不用再去做后处理的拟合，直接就从VTA网络里面吐出来，天然就是一条完整的车道线，非常便于后续的建图，使精度是达到厘米级。

第三，广泛的道路拓扑构建能力，能够发现和应对现实的变更，对地图的误差做冗余和消化的能力。

视觉场景阅读理解能力

VTA网络还增强了对视觉阅读理解能力。

人类能判断的一些事情，比如这个人是不是要穿过马路，还是他会老老实实的等红绿灯，还是说这个车到底是一个违停的车辆在路边，还是在排队等红绿灯，人是马上就能反应过来。但对算法来说，是一个比较难的问题，可能需要若干的小模型和一堆的if else的条件假设参数去做这样的判断。VTA网络通过video连续帧通过transformer，可以学习到很多道路参与者的意图。